13 research outputs found

    Web crawling and domain adaptation methods for building English–Greek machine translation systems for the culture/tourism domain

    Get PDF
    Informe técnico sobre el trabajo realizado por Víctor Manuel Sánchez Cartagena en una estancia en "Athena Research and Innovation Center", mientras estaba contratado por la empresa Prompsit Language Engineering y era colaborador honorífico en el Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante.This paper describes the process we followed in order to build English-Greek machine translation systems for the tourism/culture domain. We experimented with different data sets and domain adaptation methods for statistical machine translation and also built neural machine translation systems. The in-domain data were obtained by means of the ILSP Focused Crawler.The research leading to these results has received funding from the European Union Seventh Framework Programme FP7/2007-2013 under grant agreement PIAP-GA-2012-324414 (Abu-MaTran)

    Low Resources Machine Translation

    Get PDF
    METIS-II was a EU-FET MT project running from October 2004 to September 2007, which aimed at translating free text input without resorting to parallel corpora. The idea was to use ‘basic’ linguistic tools and representations and to link them with patterns and statistics from the monolingual target-language corpus. The METIS-II project has four partners, translating from their ‘home’ languages Greek, Dutch, German, and Spanish into English. The paper outlines the basic ideas of the project, their implementation, the resources used, and the results obtained. It also gives examples of how METIS-II has continued beyond its lifetime and the original scope of the project. On the basis of the results and experiences obtained, we believe that the approach is promising and offers the potential for development in various directions

    Language modeling for machine translation systems using a monolingual corpus

    No full text
    This PhD thesis aims at finding an effective way of modeling the language in order to be used in a Machine Translation system that utilises a monolingual target language (TL) corpus and also at optimising the parameters of the language model using evolutionary algorithms and a combination of automatic MT evaluation metrics that ensure an objective evaluation of the quality of the produced translation. In the first section of the thesis the language model, model for the translation system was presented. The model allows the mapping of a clause in the source language (SL) to clauses from the TL corpus through a complex clause comparison process on two levels the first is at word level and the second at phrasal level based on the phrases identified after the syntactic analysis of the clauses SL and TL clause comparisons are performed using an implementation of the Hungarian pattern matching algorithm combined with a series of numerical parameters of the translation model. This approach does not require any bilingual data but only relies on a TL corpus and a bilingual lexicon combining characteristics from various MT paradigms rule based and stochastic tools for SL and TL text processing and statistical information for the translation process. More specifically translation involves determining alignments between items in the two languages. Unlike many MT systems instead of sequences of η grams the system handles syntactically defined phrasal segments of varying length generated by syntactic parser. We begin by giving a detailed description of the METIS-II translation system as well as the representation and storage method of all information regarding the monolingual corpus followed by the description of the process of applying the language model to the translation system. The evaluation of the translation results is performed by applying well established metrics of automatic evaluation and comparing the results with a standard commercial machine translation system. In the second part of the thesis we present the optimisation method of the model parameters. The absence of a parallel corpus prohibits the use of the training techniques traditionally employed in state of the art Statistical Machine Translation systems. The proposed approach for fine tuning the system parameters towards the generation of high quality translations is based on Evolutionary Algorithms and more specifically on a Genetic Algorithm and on the Strength Pareto Evolutionary Algorithm 2 (SPEA2). Even though the nature of Evolutionary Algorithms makes them ideal for the task they have not been widely used for the optimisation of MT system parameters. In order to confirm the effectiveness of this approach a number of experiments were conducted involving the use and combination of modern automatic MT evaluation criteria as fitness functions to the evolutionary algorithms. In this approach the problem of MT parameter optimisation is treated as a multiobjective optimisation problem attempting to optimise system parameters by applying multiple MT evaluation metrics. Previous approaches in the simultaneous application of two MT evaluation metrics for the training and optimisation of MT systems combined them either by simply adding them up or by interpolating them and had only been tested in statistical systems. The methodology developed here combines two automatic evaluation metrics for the optimisation of the system parameters in two ways, a) as a weighted sum and alternatively, b) as two distinct criteria in a Pareto based multiobjective optimisation using the SPEA2 evolutionary algorithm. The optimisation of the parameters of a hybrid MT system combining multiple MT evaluation criteria using either a GA or a Pareto based evolutionary multiobjective algorithm such as SPEA2 is novel in the field of MT while to the best of our knowledge a Pareto based combination has never been applied to either the combination of translation quality criteria or to the task of optimising the parameters of an MT system. The presentation of the proposed optimisation method is followed by a series of comprehensive experiments designed to objectively evaluate the method.Η διδακτορική διατριβή του υποψήφιου είχε ως αντικείμενο την εύρεση ενός αποδοτικού τρόπου ανάλυσης της γλωσσάς ώστε να εφαρμοσθεί σε ένα σύστημα μηχανικής μετάφρασης με μονόγλωσσο σώμα κειμένων καθώς και η βελτιστοποίηση των παραμέτρων του γλωσσικού μοντέλου εφαρμόζοντας εξελικτικούς αλγορίθμους και η αξιοποίηση υπαρχόντων μετρικών αυτόματης αξιολόγησης ώστε μέσα από το συνδυασμό τους να αξιολογούνται αντικειμενικότερα τα αποτελέσματα της μεταφραστικής διαδικασίας. Αναλυτικότερα στο πρώτο μέρος της διατριβής προτάθηκε το μοντέλο της γλώσσας για το μεταφραστικό σύστημα. Το μοντέλο επιτρέπει την αντιστοίχιση μιας πρότασης στη γλώσσα πηγή σε προτάσεις από το σώμα κειμένων της γλώσσας στόχου μέσα από μια συνθέτη διαδικασία σύγκρισης ανάμεσα σε προτάσεις των δύο γλωσσών σε δύο επίπεδα, σε επίπεδο λέξεων και σε επίπεδο φράσεων οι οποίες προκύπτουν μετά από συντακτική ανάλυση των προτάσεων. Οι συγκρίσεις εκτελούνται με τη χρήση του αλγορίθμου αναγνώρισης προτύπων Hungarian σε συνδυασμό με μια σειρά αριθμητικών παραμέτρων του μεταφραστικού μοντέλου. Αρχικά περιγράφεται το μεταφραστικό σύστημα METIS II και η μέθοδος αναπαράστασης και αποθήκευσης κάθε πληροφορίας αναφορικά με το μονόγλωσσο σώμα κείμενων και στη συνέχεια η διαδικασία εφαρμογής του μοντέλου της γλώσσας στο μεταφραστικό σύστημα συνοδευόμενη από τα αποτελέσματα της αξιολόγησης της ποιότητας της μετάφρασης χρησιμοποιώντας καθιερωμένες μετρικές αυτόματης αξιολόγησης καθώς και σύγκριση με ένα καθιερωμένα εμπορικό σύστημα μηχανικής μετάφρασης. Στο δεύτερο μέρος της διατριβής παρουσιάζεται η μέθοδος βελτιστοποίησης των παραμέτρων του μοντέλου. Εξαιτίας τις ιδιαίτερης φύσης του γλωσσικού μοντέλου δεν μπορούν να εφαρμοσθούν άμεσα οι κλασσικές τεχνικές βελτιστοποίησης των στατιστικών συστημάτων μηχανικής μετάφρασης. Για τον λόγο αυτό επιλέξαμε να υλοποιήσουμε μια πρωτότυπη μέθοδο για τη βελτιστοποίηση των παραμέτρων η οποία βασίζεται στους εξελικτικούς αλγορίθμους (Evolutionary Algorithms) και πιο συγκεκριμένα τους Γενετικούς Αλγορίθμους (Genetic Algorithms) και τον πολυκριτηριακό εξελικτικό αλγόριθμο SPEA2. Αν και η φύση των αλγορίθμων αυτών τους καθιστά ιδανικούς για το συγκεκριμένο πρόβλημα στον τομέα της μηχανικής μετάφρασης δεν έχουν χρησιμοποιηθεί για τη βελτιστοποίηση της ποιότητας της μετάφρασης. Με την εφαρμογή των εξελικτικών αλγορίθμων στη βελτιστοποίηση των παραμέτρων του μεταφραστικού συστήματος εκτελέστηκαν πειράματα που αφορούσαν την αξιοποίηση και τον συνδυασμό συγχρόνων μετρικών αυτόματης αξιολόγησης της ποιότητας της μετάφρασης ως συναρτήσεις καταλληλόλητας των αλγορίθμων. Αν και στη βιβλιογραφία υπάρχουν αναφορές συνδυασμού τέτοιων μετρικών για την εκπαίδευση στατιστικών μοντέλων σε μεταφραστικά συστήματα δεν υπάρχουν αναφορές για το συνδυασμό τους ως διακριτά κριτήρια στα πλαίσια μιας προσέγγισης Pareto. Εφαρμόζοντας τον αλγόριθμο SPEA2 στη βελτιστοποίηση των παραμέτρων παρουσιάζουμε μια μέθοδο ταυτόχρονης αξιοποίησης δυο σύγχρονων κριτηρίων αυτόματης αξιολόγησης για την αξιολόγηση της ποιότητας της μετάφρασης ενός μεταφραστικού συστήματος. Η παρουσίαση της προταθείσας μεθόδου βελτιστοποίησης συνοδεύεται από μια σειρά διεξοδικών πειραμάτων που έχουν ως σκοπό την αντικειμενική αξιολόγηση της μεθόδου και την συγκέντρωση ικανού μεγέθους αριθμητικών δεδομένων τα οποία να αποδεικνύουν την επιτυχημένη εφαρμογή της μεθόδου στο πρόβλημα της βελτιστοποίησης των παραμέτρων του μεταφραστικού συστήματος

    Language-independent hybrid mt with presemt

    No full text
    Abstract The present article provides a comprehensive review of the work carried out on developing PRESEMT, a hybrid language-independent machine translation (MT) methodology. This methodology has been designed to facilitate rapid creation of MT systems for unconstrained language pairs, setting the lowest possible requirements on specialised resources and tools. Given the limited availability of resources for many languages, only a very small bilingual corpus is required, while language modelling is performed by sampling a large target language (TL) monolingual corpus. The article summarises implementation decisions, using the Greek-English language pair as a test case. Evaluation results are reported, for both objective and subjective metrics. Finally, main error sources are identified and directions are described to improve this hybrid MT methodology

    Machine translation with minimal reliance on parallel resources

    No full text
    This book provides a unified view on a new methodology for Machine Translation (MT). This methodology extracts information from widely available resources (extensive monolingual corpora) while only assuming the existence of a very limited parallel corpus, thus having a unique starting point to Statistical Machine Translation (SMT). In this book, a detailed presentation of the methodology principles and system architecture is followed by a series of experiments, where the proposed system is compared to other MT systems using a set of established metrics including BLEU, NIST, Meteor and TER. Additionally, a free-to-use code is available, that allows the creation of new MT systems. The volume is addressed to both language professionals and researchers. Prerequisites for the readers are very limited and include a basic understanding of the machine translation as well as of the basic tools of natural language processing

    Web crawling and domain adaptation methods for building English–Greek machine translation systems for the culture/tourism domain

    Get PDF
    Informe técnico sobre el trabajo realizado por Víctor Manuel Sánchez Cartagena en una estancia en "Athena Research and Innovation Center", mientras estaba contratado por la empresa Prompsit Language Engineering y era colaborador honorífico en el Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante.This paper describes the process we followed in order to build English-Greek machine translation systems for the tourism/culture domain. We experimented with different data sets and domain adaptation methods for statistical machine translation and also built neural machine translation systems. The in-domain data were obtained by means of the ILSP Focused Crawler.The research leading to these results has received funding from the European Union Seventh Framework Programme FP7/2007-2013 under grant agreement PIAP-GA-2012-324414 (Abu-MaTran)

    Web crawling and domain adaptation methods for building English–Greek machine translation systems for the culture/tourism domain

    Get PDF
    Informe técnico sobre el trabajo realizado por Víctor Manuel Sánchez Cartagena en una estancia en "Athena Research and Innovation Center", mientras estaba contratado por la empresa Prompsit Language Engineering y era colaborador honorífico en el Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante.This paper describes the process we followed in order to build English-Greek machine translation systems for the tourism/culture domain. We experimented with different data sets and domain adaptation methods for statistical machine translation and also built neural machine translation systems. The in-domain data were obtained by means of the ILSP Focused Crawler.The research leading to these results has received funding from the European Union Seventh Framework Programme FP7/2007-2013 under grant agreement PIAP-GA-2012-324414 (Abu-MaTran)
    corecore